1
本番環境での現実:密度型検索が失敗するとき
AI025Advanced Retrieval Optimization
00:00

一方で 密度型検索 意味の意図を捉えることで検索を革新した一方、本番環境では厳しい真実が明らかになる。ベクトル埋め込みはしばしば製品IDや希少な略語、技術用語といった重要な詳細を「平滑化」してしまう。現実世界は純粋な意味論だけではなく、抽象的な意味と厳格な識別子の複雑な混合物である。

密度型の強み意味クラスタ語彙的(キーワード)の強み正確な信号(ID:404)

本番環境での現実

  • 語彙的(キーワード)の利点: 語彙的検索(例:BM25)は正確な単語やフレーズの一致に対して黄金標準であり続けている。ユーザーの意図を推測しようとはせず、「あなたが言った内容そのもの」を特定する。
  • 意味のギャップ: 密度型検索は意味の一致に非常に優れている(例:「支払いの問題」と「取引失敗」が一致)。しかし、商品コードや部品番号のような高精度な スパース信号 スパース信号、例えばSKU番号や部品コードなどには本質的に苦手とする。
  • ハイブリッド検索の必要性: ハイブリッド検索が必要なのは、世界が純粋な意味論でもなく、純粋な語彙的検索でもないからだ。ユーザーの行動は二分されている。時折概念を探し、時折「懸賞抽選のハリボテの中の針」のような特定のトークンを探している。
技術的洞察
密度型検索は意味の一致に強く、語彙的検索は正確な単語、識別子、フレーズの一致に強い。実際のユーザーの質問は両方の能力が必要なことが多く、ハイブリッド検索が存在するのは、世界が純粋な意味論でもなく、純粋な語彙的検索でもないからである。